1
Introdução ao Aprendizado por Reforço Profundo (DRL)
EvoClass-AI003Lecture 9
00:00

Introdução ao Aprendizado por Reforço Profundo (DRL)

O Aprendizado por Reforço Profundo (DRL) combina as capacidades de representação em alta dimensão dos Redes Neurais Profundas com o quadro de controle ótimo do Aprendizado por Reforço. Diferentemente do aprendizado supervisionado ou não supervisionado, o DRL agentes aprende por meio de interações experimentais e baseadas em erros dentro de um ambiente dinâmico ambiente, tomando decisões sequenciais decisões sequenciais sem rótulos imediatos ou explícitos. Essa integração permite que os agentes lidem diretamente com entradas complexas e brutas (como dados de pixels).

1. O Paradigma de Aprendizado do DRL

O agente de Aprendizado por Reforço opera em um ciclo contínuo: observando o ambiente Estado ($S_t$), realizando uma Ação ($A_t$), e recebendo uma recompensa escalar potencialmente rara ou atrasada Recompensa ($R_{t+1}$). O principal desafio é o problema de atribuição de crédito: determinar quais ações passadas foram responsáveis por um sinal de recompensa futura.

2. O Objetivo de Otimização

O objetivo final é descobrir uma estratégia ótima, ou política ($\pi^*$), que é uma correspondência de estados para ações, que maximiza o Retorno Acumulado Descontado Esperado ($G_t$). O fator de desconto ($\gamma \in [0, 1]$) é matematicamente crucial, definindo quanto valorizamos recompensas imediatas em comparação com recompensas esperadas no futuro distante.

$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$
Question 1
How does the DRL agent receive feedback from the environment?
Explicit labels/targets
Backpropagation through time
Scalar reward signal
Labeled demonstration data
Question 2
What does the policy ($\pi$) mathematically represent?
The predicted total reward
A distribution over actions given a state
The probability of transitioning to a new state
The error between predicted and actual returns
Challenge: The Discount Factor
Analyzing the Temporal Horizon.
Consider two scenarios:
1. $\gamma = 0$
2. $\gamma \approx 1$

Describe the agent's behavioral preference in each case regarding the timeline of rewards.
Step 1
How does the choice of $\gamma$ affect the policy's horizon?
Solution:
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.